大型策划数据集是必要的,但是注释医学图像是一个耗时,费力且昂贵的过程。因此,最近的监督方法着重于利用大量未标记的数据。但是,这样做是一项具有挑战性的任务。为了解决这个问题,我们提出了一种新的3D Cross伪监督(3D-CPS)方法,这是一种基于NNU-NET的半监督网络体系结构,采用交叉伪监督方法。我们设计了一种新的基于NNU-NET的预处理方法,并在推理阶段采用强制间距设置策略来加快推理时间。此外,我们将半监督的损耗重量设置为与每个时期的线性扩展,以防止在早期训练过程中模型从低质量的伪标签中。我们提出的方法在MICCAI Flare2022验证集(20例)上,平均骰子相似系数(DSC)为0.881,平均归一化表面距离(NSD)为0.913。
translated by 谷歌翻译
While object reconstruction has made great strides in recent years, current methods typically require densely captured images and/or known camera poses, and generalize poorly to novel object categories. To step toward object reconstruction in the wild, this work explores reconstructing general real-world objects from a few images without known camera poses or object categories. The crux of our work is solving two fundamental 3D vision problems -- shape reconstruction and pose estimation -- in a unified approach. Our approach captures the synergies of these two problems: reliable camera pose estimation gives rise to accurate shape reconstruction, and the accurate reconstruction, in turn, induces robust correspondence between different views and facilitates pose estimation. Our method FORGE predicts 3D features from each view and leverages them in conjunction with the input images to establish cross-view correspondence for estimating relative camera poses. The 3D features are then transformed by the estimated poses into a shared space and are fused into a neural radiance field. The reconstruction results are rendered by volume rendering techniques, enabling us to train the model without 3D shape ground-truth. Our experiments show that FORGE reliably reconstructs objects from five views. Our pose estimation method outperforms existing ones by a large margin. The reconstruction results under predicted poses are comparable to the ones using ground-truth poses. The performance on novel testing categories matches the results on categories seen during training. Project page: https://ut-austin-rpl.github.io/FORGE/
translated by 谷歌翻译
Transformer-based language models have become the standard approach to solving natural language processing tasks. However, industry adoption usually requires the maximum throughput to comply with certain latency constraints that prevents Transformer models from being used in production. To address this gap, model compression techniques such as quantization and pruning may be used to improve inference efficiency. However, these compression techniques require specialized software to apply and deploy at scale. In this work, we propose a new pipeline for creating and running Fast Transformer models on CPUs, utilizing hardware-aware pruning, knowledge distillation, quantization, and our own Transformer inference runtime engine with optimized kernels for sparse and quantized operators. We demonstrate the efficiency of our pipeline by creating a Fast DistilBERT model showing minimal accuracy loss on the question-answering SQuADv1.1 benchmark, and throughput results under typical production constraints and environments. Our results outperform existing state-of-the-art Neural Magic's DeepSparse runtime performance by up to 50% and up to 4.1x performance speedup over ONNX Runtime. Source code is publicly available at https://github.com/intel/intel-extension-for-transformers.
translated by 谷歌翻译
事件检测任务可以帮助人们快速从复杂文本中确定域。它还可以为自然语言处理的下游任务提供强大的支持。存在仅基于大量数据实现固定型学习。当扩展到新课程时,通常需要保留原始数据并重新训练模型。事件检测任务可以终身学习新类,但是大多数现有方法都需要保留大量原始数据或面临灾难性的问题忘记。除此之外,由于缺乏实用性数据,很难获得足够的数据进行模型培训。要解决上述问题,我们在事件检测的领域定义了一项新任务,这是很少的增量事件检测。此任务要求在学习新事件类型的情况下,该模型应保留以前的类型,并且输入有限。我们根据几个event重新创建和发布基准数据集,以少数数量的事件检测任务。我们发布的数据集比该新任务中的其他数据集更合适。此外,我们提出了两种基准方法,即IFSED-K和IFSED-KP,可以以不同的方式解决任务。实验结果表明,我们的方法具有更高的F1分数,并且比基线更稳定。
translated by 谷歌翻译
对于旨在提供家庭服务,搜索和救援,狭窄的检查和医疗援助的机器人来说,在未知,混乱的环境中进行积极的感测和计划是一个公开挑战。尽管存在许多主动感应方法,但它们通常考虑开放空间,假设已知设置,或者大多不概括为现实世界的场景。我们介绍了活跃的神经传感方法,该方法通过手持摄像头生成机器人操纵器的运动学可行视点序列,以收集重建基础环境所需的最小观测值。我们的框架积极收集视觉RGBD观测值,将它们汇总到场景表示中,并执行对象形状推断,以避免与环境的不必要的机器人相互作用。我们使用域随机化训练我们的合成数据方法,并通过SIM到实现的传递成功地执行了其成功执行,以重建狭窄,覆盖的,现实的机柜环境,这些环境杂乱无章。由于周围的障碍物和环境较低的照明条件,自然机柜场景对机器人运动和场景重建构成了重大挑战。然而,尽管设置不利,但就各种环境重建指标(包括计划速度,观点数量和整体场景覆盖)而言,我们的方法与基线相比表现出高性能。
translated by 谷歌翻译
语义细分是农业机器人了解自然果园周围环境的一项基本任务。 LIDAR技术的最新发展使机器人能够在非结构化果园中获得准确的范围测量。与RGB图像相比,3D点云具有几何特性。通过将LIDAR和相机组合在一起,可以获得有关几何和纹理的丰富信息。在这项工作中,我们提出了一种基于深度学习的分割方法,以对来自激光镜像相机视觉传感器的融合数据进行准确的语义分割。在这项工作中探索和解决了两个关键问题。第一个是如何有效地从多传感器数据中融合纹理和几何特征。第二个是如何在严重失衡类条件下有效训练3D分割网络的方法。此外,详细介绍了果园中3D分割的实现,包括LiDAR-CAMERA数据融合,数据收集和标签,网络培训和模型推断。在实验中,我们在处理从苹果园获得的高度非结构化和嘈杂的点云时,全面分析了网络设置。总体而言,我们提出的方法在高分辨率点云(100k-200k点)上的水果分割时达到了86.2%MIOU。实验结果表明,所提出的方法可以在真实的果园环境中进行准确的分割。
translated by 谷歌翻译
自我对准过程可以提供准确的罪恶初始态度。常规的两种方法通常包括粗糙和细微的对齐过程。粗对齐通常基于OBA(基于优化的对准)方法,批次估计自我对准开始时恒定的初始态度。 OBA迅速收敛,但是准确性很低,因为该方法不考虑IMU的偏差错误。细胞对齐应用递归的贝叶斯滤波器,这使得对IMU的系统误差估计更加准确,但与此同时,态度误差以较大的标题未对准角缓慢收敛。研究人员提出了统一的自我对准以在一个过程中实现自我对准,但是当未对准角度很大时,基于递归贝叶斯过滤器的现有方法仍然很慢。在本文中,提出了基于批处理估计器FGO(因子图优化)的统一方法。据作者所知,这是第一种批处理方法,能够同时估算IMU的所有系统误差和恒定的初始态度,并具有快速的收敛性和高精度。通过对旋转罪的模拟和物理实验来验证该方法的有效性。
translated by 谷歌翻译
与传统的刚性机器人相比,由于合规性,安全性和低成本,软机器人由于其优点而引起了越来越多的关注。作为软机器人的重要组成部分,软机器人夹具还显示出其优越的同时抓住具有不规则形状的物体。已经进行了最近的研究,以通过调整可变有效长度(VEL)来改善其抓握性能。然而,通过多室设计或可调刚度形状记忆材料实现的Vel需要复杂的气动电路设计或耗时的相变过程。这项工作提出了一种由3D印刷灯丝,忍者克朗的折叠式软机器人执行器。它是通过高速模型进行实验测试和表示的。进行数学和有限元建模,以研究所提出的软致动器的弯曲行为。此外,提出了一种拮抗约束机制来实现VEL,并且实验表明实现了更好的符合性。最后,设计了一种双模夹具,以展示Vel对抓取性能的进步。
translated by 谷歌翻译
最近的自我监督视频表示学习方法通​​过探索视频的基本属性,例如探讨了视频的基本属性。速度,时间顺序等。这项工作利用了一个必不可少的视频,\ Texit {视频连续性}的必要性,以获取自我监督表示学习的监督信号。具体而言,我们制定了三个新的连续性相关的借口任务,即连续性理由,不连续的本地化和缺失部分近似,该近似地监督用于视频表示学习的共享骨干。这种自我监督方法被称为连续性感知网络(CPNet),解决了三个任务,并鼓励骨干网络学习本地和长距离的运动和情境表示。它在多个下游任务中优于现有技术,例如动作识别,视频检索和动作定位。另外,视频连续性可以与其他粗粒度视频属性互补,用于表示学习的其他粗粒视频属性,并将所提出的借口任务集成到现有技术中,可以产生很大的性能增益。
translated by 谷歌翻译
现场机器人收获是农业产业近期发展的有希望的技术。在自然果园收获之前,机器人识别和本地化水果至关重要。然而,果园中收获机器人的工作空间很复杂:许多水果被分支和叶子堵塞。在执行操纵之前,估计每个果实的适当抓握姿势是很重要的。在本研究中,建议使用来自RGB-D相机的颜色和几何感官数据来执行端到端实例分段和掌握估计的几何意识网络A3N。此外,应用了工作区几何建模以帮助机器人操纵。此外,我们实施全球到本地扫描策略,它使机器人能够在具有两个消费级RGB-D相机中准确地识别和检索现场环境中的水果。我们还全面评估了所提出的网络的准确性和鲁棒性。实验结果表明,A3N达到了0.873的实例分割精度,平均计算时间为35毫秒。掌握估计的平均准确性分别为0.61厘米,4.8美元,中心和方向分别为4.8美元。总的来说,利用全球到局部扫描和A3N的机器人系统实现了从现场收集实验中的70 \%-85 \%的收获量的成功率。
translated by 谷歌翻译